首页> 外文OA文献 >A High-Performance Algorithm for Identifying Frequent Items in Data Streams
【2h】

A High-Performance Algorithm for Identifying Frequent Items in Data Streams

机译:一种识别数据中频繁项的高性能算法   流

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Estimating frequencies of items over data streams is a common building blockin streaming data measurement and analysis. Misra and Gries introduced theirseminal algorithm for the problem in 1982, and the problem has since beenrevisited many times due its practicality and applicability. We describe ahighly optimized version of Misra and Gries' algorithm that is suitable fordeployment in industrial settings. Our code is made public via an open sourcelibrary called DataSketches that is already used by several companies andproduction systems. Our algorithm improves on two theoretical and practical aspects of priorwork. First, it handles weighted updates in amortized constant time, a commonrequirement in practice. Second, it uses a simple and fast method for mergingsummaries that asymptotically improves on prior work even for unweightedstreams. We describe experiments confirming that our algorithms are moreefficient than prior proposals.
机译:估计数据流上项目的频率是流数据测量和分析中的常见组成部分。 Misra和Gries于1982年提出了针对该问题的seminal算法,此问题由于其实用性和适用性而被多次重述。我们描述了Misra和Gries算法的高度优化版本,适用于工业环境中的部署。我们的代码通过名为DataSketches的开源库公开,该库已经被多家公司和生产系统使用。我们的算法改进了先验工作的两个理论和实践方面。首先,它在固定的固定时间内处理加权更新,这是实践中的普遍要求。其次,它使用一种简单而快速的方法来合并摘要,即使对于未加权流也可以渐进地改进以前的工作。我们描述的实验证实了我们的算法比以前的提议更有效率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号